适应分布数据的数据是所有统计学习算法的元挑战,这些算法强烈依赖于I.I.D.假设。它导致不可避免的人工成本和在现实应用中的信心危机。为此,域的概括旨在从多个源域中的挖掘域 - 核定知识,这些知识可以推广到看不见的目标域。在本文中,通过利用图像的频域,我们独特地使用两个关键观察:(i)图像的高频信息描绘了对象边缘结构,该信息保留对象的高级语义信息自然是一致的跨不同域,(ii)低频组件保留对象平滑结构,而此信息易于域移动。在上述观察结果的激励下,我们引入(i)图像的高频和低频功能,(ii)一种信息交互机制,以确保两个部分的有用知识可以有效地合作,并且(iii)一种新型的数据增强技术,可在频域上起作用,以鼓励频率特征的稳健性。提出的方法在三个广泛使用的域概括基准(Digit-DG,Office-home和pac)上获得了最先进的性能。
translated by 谷歌翻译
近年来,深入学习的蓬勃发展的开花目睹了文本认可的快速发展。但是,现有的文本识别方法主要用于英语文本,而忽略中文文本的关键作用。作为另一种广泛的语言,中文文本识别各种方式​​都有广泛的应用市场。根据我们的观察,我们将稀缺关注缺乏对缺乏合理的数据集建设标准,统一评估方法和现有基线的结果。为了填补这一差距,我们手动收集来自公开的竞争,项目和论文的中文文本数据集,然后将它们分为四类,包括场景,网络,文档和手写数据集。此外,我们在这些数据集中评估了一系列代表性的文本识别方法,具有统一的评估方法来提供实验结果。通过分析实验结果,我们令人惊讶地观察到识别英语文本的最先进的基线不能很好地表现出对中国情景的良好。由于中国文本的特征,我们认为仍然存在众多挑战,这与英文文本完全不同。代码和数据集在https://github.com/fudanvi/benchmarking-chinese-text-recognition中公开使用。
translated by 谷歌翻译
The rapid development of aspect-based sentiment analysis (ABSA) within recent decades shows great potential for real-world society. The current ABSA works, however, are mostly limited to the scenario of a single text piece, leaving the study in dialogue contexts unexplored. In this work, we introduce a novel task of conversational aspect-based sentiment quadruple analysis, namely DiaASQ, aiming to detect the sentiment quadruple of target-aspect-opinion-sentiment in a dialogue. DiaASQ bridges the gap between fine-grained sentiment analysis and conversational opinion mining. We manually construct a large-scale, high-quality Chinese dataset and also obtain the English version dataset via manual translation. We deliberately propose a neural model to benchmark the task. It advances in effectively performing end-to-end quadruple prediction and manages to incorporate rich dialogue-specific and discourse feature representations for better cross-utterance quadruple extraction. We finally point out several potential future works to facilitate the follow-up research of this new task. The DiaASQ data is open at https://github.com/unikcc/DiaASQ
translated by 谷歌翻译
情绪引起的提取(ECPE)是情感原因分析的衍生子任务之一(ECA),与情感提取(EE)共享丰富的相关特征(EE)并引起提取(CE)。因此,EE和CE经常被用作更好的特征学习的辅助任务,通过先前的工作通过多任务学习(MTL)框架建模,以实现最新的ECPE结果。但是,现有的基于MTL的方法无法同时建模特定特征和之间的交互作用,或者遭受标签预测的不一致。在这项工作中,我们考虑通过使用新型A^2NET模型执行两种对齐机制来解决以上改善ECPE的挑战。我们首先提出一个功能任务对齐方式,以明确对特定的情感和特定特定功能和共享交互式特征进行建模。此外,还实施了任务跨度的对准,其中ECPE和EE和CE组合之间的标签距离被缩小了以获得更好的标签一致性。对基准的评估表明,我们的方法在所有ECA子任务上的表现都优于当前最佳性能系统。进一步的分析证明了我们提出的一致性机制对任务的重要性。
translated by 谷歌翻译
事件提取(EE)是信息提取的重要任务,该任务旨在从非结构化文本中提取结构化事件信息。大多数先前的工作都专注于提取平坦的事件,同时忽略重叠或嵌套的事件。多个重叠和嵌套EE的模型包括几个连续的阶段来提取事件触发器和参数,这些阶段患有错误传播。因此,我们设计了一种简单而有效的标记方案和模型,以将EE作为单词关系识别,称为oneee。触发器或参数单词之间的关系在一个阶段同时识别出并行网格标记,从而产生非常快的事件提取速度。该模型配备了自适应事件融合模块,以生成事件感知表示表示和距离感知的预测指标,以整合单词关系识别的相对距离信息,从经验上证明这是有效的机制。对3个重叠和嵌套的EE基准测试的实验,即少数FC,GENIA11和GENIA13,表明Oneee实现了最新的(SOTA)结果。此外,ONEEE的推理速度比相同条件下的基线的推理速度快,并且由于它支持平行推断,因此可以进一步改善。
translated by 谷歌翻译
到目前为止,命名实体识别(ner)已经参与了三种主要类型,包括平面,重叠(嵌套)和不连续的ner,主要是单独研究。最近,为统一的人员建立了一个日益增长的兴趣,并与一个单一模型同时解决上述三个工作。当前最佳性能的方法主要包括基于跨度和序列到序列的模型,不幸的是,前者仅关注边界识别,后者可能遭受暴露偏差。在这项工作中,我们通过将统一的ner建模为Word-Word关系分类来提出一种小说替代方案,即W ^ 2ner。通过有效地建模具有下面邻近字(NNW)和尾页字 - *(THW- *)关系的实体单词之间的邻近关系来解决统一网内的内核瓶颈。基于W ^ 2ner方案,我们开发了一个神经框架,其中统一的网格被建模为单词对的2D网格。然后,我们提出了多粒度的2D卷积,以便更好地精炼网格表示。最后,共同预测器用于足够原因的单词关系。我们对14个广泛使用的基准数据集进行了广泛的实验,用于平板,重叠和不连续的NER(8英语和6个中文数据集),我们的型号击败了所有当前的顶级表演基线,推动了最先进的表演统一的网。
translated by 谷歌翻译
在过去十年中,深度学习的开花目睹了现场文本识别的快速发展。然而,识别低分辨率场景文本图像仍然是一个挑战。尽管已经提出了一些超分辨率的方法来解决这个问题,但它们通常将文本图像视为一般图像,同时忽略了中风的视觉质量(文本原子单位)的事实扮演文本识别的重要作用。根据Gestalt心理学,人类能够将部分细节构成为先前知识所指导的最相似的物体。同样,当人类观察低分辨率文本图像时,它们将本质上使用部分笔划级细节来恢复整体字符的外观。灵感来自Gestalt心理学,我们提出了一个中风感知的场景文本图像超分辨率方法,其中包含带有冲程的模块(SFM),专注于文本图像中的字符的行程级内部结构。具体而言,我们尝试设计用于在笔划级别分解英语字符和数字的规则,然后预先列车文本识别器以提供笔划级注意映射作为位置线索,目的是控制所生成的超分辨率图像之间的一致性和高分辨率的地面真相。广泛的实验结果验证了所提出的方法确实可以在Textoom和手动构建中文字符数据集DegraDed-IC13上生成更可区分的图像。此外,由于所提出的SFM仅用于在训练时提供笔划级别指导,因此在测试阶段不会带来任何时间开销。代码可在https://github.com/fudanvi/fudanocr/tree/main/text -GETALT中获得。
translated by 谷歌翻译
自动皮肤癌诊断的最新进展情况会产生与董事会认证的皮肤科医生的表现。然而,这些方法将皮肤癌诊断制定为简单的分类任务,解除了病变细分的潜在益处。我们认为,准确的病变分割可以补充具有添加性病变信息的分类任务,例如不对称,边界,强度和物理尺寸;反过来,忠诚的病变分类可以支持判别病变特征的分割任务。为此,本文提出了一个名为MT-TransUnet的新的多任务框架,该框架是MT-TransUnet,它能够通过在变压器中调解多任务令牌来协同分割和分类皮肤病。此外,我们引入了双重任务和参加区域一致性损失,以利用这些图像,没有像素级注释,确保在遇到与增强的账户时遇到相同图像时的模型的稳健性。我们的MT-TransUnet超过了ISIC-2017和PH2中的病变细分和分类任务的先前现有技术;更重要的是,它保留了有关模型参数(48m〜与〜130m)和推理速度的令人信服的计算效率(每张图片0.17s〜与〜2.02s)。代码将在https://github.com/jingyechen/mt-transunet上获得。
translated by 谷歌翻译
文本识别是文档数字化的长期研究问题。现有的方法通常是基于CNN构建的,以用于图像理解,并为Char-Level文本生成而建立RNN。此外,通常需要另一种语言模型来提高整体准确性作为后处理步骤。在本文中,我们提出了一种使用预训练的图像变压器和文本变压器模型(即Trocr)提出的端到端文本识别方法,该模型利用了变压器体系结构,以实现图像理解和文字级级文本生成。TROR模型很简单,但有效,可以通过大规模合成数据进行预训练,并通过人体标记的数据集进行微调。实验表明,TROR模型的表现优于印刷,手写和场景文本识别任务上的当前最新模型。Trocr模型和代码可在\ url {https://aka.ms/trocr}上公开获得。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译